本文介绍了对体现药物(Genea)挑战2022的非语言行为的生成和评估的重生条目。Genea挑战提供了处理后的数据集并进行众包评估,以比较不同手势生成系统的性能。在本文中,我们探讨了基于多模式表示学习的自动手势生成系统。我们将WAVLM功能用于音频,FastText功能,用于文本,位置和旋转矩阵功能用于手势。每个模态都投影到两个不同的子空间:模态不变和特定于模态。为了学习模式间不变的共同点并捕获特定于模态表示的字符,在训练过程中使用了基于梯度逆转层的对抗分类器和模态重建解码器。手势解码器使用与音频中的节奏相关的所有表示和功能生成适当的手势。我们的代码,预培训的模型和演示可在https://github.com/youngseng/represture上找到。
translated by 谷歌翻译
联合学习(FL)使移动设备能够在保留本地数据的同时协作学习共享的预测模型。但是,实际上在移动设备上部署FL存在两个主要的研究挑战:(i)频繁的无线梯度更新v.s.频谱资源有限,以及(ii)培训期间渴望的FL通信和本地计算V.S.电池约束的移动设备。为了应对这些挑战,在本文中,我们提出了一种新型的多位空天空计算(MAIRCOMP)方法,用于FL中本地模型更新的频谱有效聚合,并进一步介绍用于移动的能源有效的FL设计设备。具体而言,高精度数字调制方案是在MAIRCOMP中设计和合并的,允许移动设备同时在多访问通道中同时在所选位置上传模型更新。此外,我们理论上分析了FL算法的收敛性。在FL收敛分析的指导下,我们制定了联合传输概率和局部计算控制优化,旨在最大程度地减少FL移动设备的总体能源消耗(即迭代局部计算 +多轮通信)。广泛的仿真结果表明,我们提出的方案在频谱利用率,能源效率和学习准确性方面优于现有计划。
translated by 谷歌翻译
巨大的努力已经致力于创造高性能的少量学习者,即表现良好的培训数据的模型。培训大规模预训练语言模型(PLMS)产生了重大成本,但利用基于PLM的少量学习者由于其巨大尺寸而仍然具有挑战性。这项工作侧重于一个至关重要的问题:如何有效地利用这几个射门学习者?我们提出LMTurk,这是一种像众包工人一样对待几次射门学习者的新方法。理由是,众群工人实际上是几次学习者:他们被示出了一些说明性的例子来了解任务,然后开始注释。LMTurk聘请了几枪就是在PLMS作为工人的学习者。我们表明,由此产生的注释可以用来培训解决任务的模型,并且足够小,可以在实际情况下部署。完全,LMTurk是朝着有效利用当前PLM的少量学习者的重要一步。
translated by 谷歌翻译
管状结构跟踪是计算机视觉和医学图像分析领域的关键任务。基于最小的路径的方法在跟踪管状结构中表现出具有强的能力,通过该方法可以自然地建模,作为用合适的测地度量计算的最小测地路径。然而,现有的基于路径的基于路径的跟踪方法仍然遭受诸如快捷方式和短分支组合问题的困难,特别是在处理涉及复杂的管状树结构或背景的图像时。在本文中,我们介绍了一种新的最小路径基于基于路径的基于型号,用于尽可能多的交互管结构中心线提取与感知分组方案。基本上,我们考虑了规定的管状轨迹和曲率惩罚的测地路,以寻求合适的最短路径。所提出的方法可以从管状结构上的局部平​​滑度和基于使用的图形的路径搜索方案的全球最优性中受益。合成和实图像的实验结果证明,该模型确实获得了与最新的基于路径的管状结构跟踪算法比较的优惠。
translated by 谷歌翻译
基于学习的3D点云注册的任务已经取得了很大的进展,即使在部分到部分匹配方案中,现有方法也在ModelNET40等标准基准上产生未完成的结果。不幸的是,这些方法仍然在实际数据存在下挣扎。在这项工作中,我们确定了这些失败的来源,分析了它们背后的原因,并提出解决它们的解决方案。我们将我们的调查结果总结为一系列准则,并通过将它们应用于不同的基线方法,DCP和IDAM来证明其有效性。简而言之,我们的指导方针改善了它们的培训融合和测试准确性。最终,这转换为最佳实践的3D注册网络(BPNET),构成了一种能够在真实数据中处理先前未经操作的基于学习的方法。尽管仅对合成数据进行培训,但我们的模型将推广到实际数据,而无需任何微调,达到使用商业传感器获得的看不见物体的点云达到高达67%的准确性。
translated by 谷歌翻译
基于Eikonal方程的最小测地模型能够在各种图像分割场景中找到合适的解决方案。现有的基于测地的分割方法通常与几何正则化术语一起利用图像特征,例如欧几里德曲线长度或曲率惩罚长度,用于计算测地曲线。在本文中,我们考虑了一个更复杂的问题:在先前用凸形形状找到曲率惩罚的测距路径。我们建立了依赖于取向升降策略的新测地模型,通过该曲线可以映射到高维定向依赖的空间。凸起形状以前用于构建编码特定曲率约束的局部测地度量的约束。然后,可以通过最先进的Hamiltonian快速行进方法有效地计算定向空间中的测地距离和相应的闭合大气路。此外,我们将所提出的测地模型应用于活动轮廓,导致有效的交互式图像分割算法,其保留凸起形状的优点和曲率损失。
translated by 谷歌翻译
联合学习(FL)是一个带有边缘计算的充填地的新兴分布式机器学习范式,是具有在移动边缘设备上具有新颖应用的有前途的区域。在FL中,由于移动设备通过共享模型更新,因此在中央服务器的协调下基于其自身的数据进行组合培训模型,培训数据保持私密。但是,在没有数据的核心可用性的情况下,计算节点需要经常传送模型更新以获得汇聚。因此,本地计算时间与将本地模型更新一起创建本地模型更新以及从服务器发送到服务器的时间导致总时间的延迟。此外,不可靠的网络连接可以妨碍这些更新的有效通信。为了解决这些问题,我们提出了一个延迟有效的流动机制,可以减少模型融合所需的总时间(包括计算和通信延迟)和通信轮。探索各种参数对延迟的影响,我们寻求平衡无线通信(谈话)和本地计算之间的权衡(为工作)。我们与整体时间作为优化问题制定了关系,并通过广泛的模拟展示了我们方法的功效。
translated by 谷歌翻译
In this paper, we propose a robust 3D detector, named Cross Modal Transformer (CMT), for end-to-end 3D multi-modal detection. Without explicit view transformation, CMT takes the image and point clouds tokens as inputs and directly outputs accurate 3D bounding boxes. The spatial alignment of multi-modal tokens is performed implicitly, by encoding the 3D points into multi-modal features. The core design of CMT is quite simple while its performance is impressive. CMT obtains 73.0% NDS on nuScenes benchmark. Moreover, CMT has a strong robustness even if the LiDAR is missing. Code will be released at https://github.com/junjie18/CMT.
translated by 谷歌翻译
Dataset distillation has emerged as a prominent technique to improve data efficiency when training machine learning models. It encapsulates the knowledge from a large dataset into a smaller synthetic dataset. A model trained on this smaller distilled dataset can attain comparable performance to a model trained on the original training dataset. However, the existing dataset distillation techniques mainly aim at achieving the best trade-off between resource usage efficiency and model utility. The security risks stemming from them have not been explored. This study performs the first backdoor attack against the models trained on the data distilled by dataset distillation models in the image domain. Concretely, we inject triggers into the synthetic data during the distillation procedure rather than during the model training stage, where all previous attacks are performed. We propose two types of backdoor attacks, namely NAIVEATTACK and DOORPING. NAIVEATTACK simply adds triggers to the raw data at the initial distillation phase, while DOORPING iteratively updates the triggers during the entire distillation procedure. We conduct extensive evaluations on multiple datasets, architectures, and dataset distillation techniques. Empirical evaluation shows that NAIVEATTACK achieves decent attack success rate (ASR) scores in some cases, while DOORPING reaches higher ASR scores (close to 1.0) in all cases. Furthermore, we conduct a comprehensive ablation study to analyze the factors that may affect the attack performance. Finally, we evaluate multiple defense mechanisms against our backdoor attacks and show that our attacks can practically circumvent these defense mechanisms.
translated by 谷歌翻译
Automatic music generation with artificial intelligence typically requires a large amount of data which is hard to obtain for many less common genres and musical instruments. To tackle this issue, we present ongoing work and preliminary findings on the possibility for deep models to transfer knowledge from language to music, by finetuning large language models pre-trained on a massive text corpus on only hundreds of MIDI files of drum performances. We show that by doing so, one of the largest, state-of-the-art models (GPT3) is capable of generating reasonable drum grooves, while models that are not pre-trained (Transformer) shows no such ability beyond naive repetition. Evaluating generated music is a challenging task, more so is evaluating drum grooves with little precedence in literature. Hence, we propose a tailored structural evaluation method and analyze drum grooves produced by GPT3 compared to those played by human professionals, exposing the strengths and weaknesses of such generation by language-to-music transfer. Our findings suggest that language-to-music transfer learning with large language models is viable and promising.
translated by 谷歌翻译